[Day0] Intro

2024 iThome 鐵人賽

DAY 0

AI/ ML & Data

Re:從零開始的AWS雲端數據平台系列第 1 篇

16th鐵人賽

swedrf0112

2024-09-16 19:14:04

392 瀏覽

分享至

Hello

Hi, 很高興認識你，這次希望透過實作的方式來加深自己對數據架構的認識，也算是給自己的一個新挑戰以及一個任務的結束。這篇文章希望提供的閱讀對象，會需要對AWS、數據工程、數據分析有初步認識，所以對每個工具或服務的前情提要不會太多，除非是我沒有太多接觸或不熟悉的，也因為工具是我預先指定好的，所以在內容中不會寫太多工具比較，如果有興趣了解工具選型，或是有其他想討論的內容也歡迎隨時聯繫我一起討論。

Scope

這次打算先完成一個基本的數據平台實作，包含:

資料源: 主要是以批次丟進 AWS S3 的方式
存儲: AWS S3 + Apache Iceberg & AWS Glue Data Catalog 作為 Data Lakehouse 的方案
除了多認識 Iceberg 之外，也希望測試一些 Iceberg 特別的 Feature
運算: 使用 PySpark 作爲運算的框架，所以會涵蓋 AWS Glue 以及 AWS EMR 服務的使用

基本上盡量能把上面能做的寫完，再看進度串接應用情境，有想到特別的內容就再貼上來。